了解来自第一人称观点的社交互动对于许多应用来说至关重要,从辅助机器人到AR / VR。谈论相互作用的第一步是理解人类的姿势和形状。但是,该领域的研究目前受到数据缺乏的阻碍。现有数据集根据大小,注释,地面真实捕获方式或相互作用的多样性有限。我们通过提出EGOBODY来解决这一缺点,这是一个用于复杂3D场景中的社交交互的新型大规模数据集。我们采用Microsoft Hololens2耳机来记录富裕的EGEntric数据流(包括RGB,深度,眼睛凝视,头部和手动跟踪)。为了获得准确的3D地面真理,我们将耳机用多kinect钻机校准并配合富有呈现的SMPL-X体网格到多视图RGB-D帧,重建3D人类姿势和相对于场景的形状。我们收集68个序列,跨越不同的社会学互动类别,并提出了从自我监视视图的3D全体姿态和形状估计的第一个基准。我们的数据集和代码将在https://sanweiliti.github.io/egobody/egobody.html中进行研究。
translated by 谷歌翻译
以准确的,稳健和快速的方式拟合人体,手或面对稀疏输入信号的参数模型,这具有重要的是在AR和VR场景中显着改善浸入。解决这些问题的系统中的一个常见的第一步是直接从输入数据重新分配参数模型的参数。这种方法是快速,稳健的,并且是迭代最小化算法的良好起点。后者搜索最小的能量函数,通常由编码关于问题的结构的知识的数据项和前沿组成。虽然这无疑是一个非常成功的食谱,但前锋往往是手工定义的启发式,发现不同术语之间的正确平衡,以实现高质量的结果是一个非琐碎的任务。此外,转换和优化这些系统以表现方式运行,需要定制实现,要求从工程师和域专家进行大量时间投资。在这项工作中,我们建立了近期学习优化的进步,并提出了由Classic Levenberg-Marquardt算法启发的更新规则。我们展示了所提出的神经优化器对从2D地标的头戴式装置和面部配件的3D体表估计问题的有效性。我们的方法可以很容易地应用于新的模型拟合问题,并提供竞争替代方案,在准确性和速度方面都提供了良好的调谐“传统”模型拟合管道。
translated by 谷歌翻译
具有注释的缺乏大规模的真实数据集使转移学习视频活动的必要性。我们的目标是为少数行动分类开发几次拍摄转移学习的有效方法。我们利用独立培训的本地视觉提示来学习可以从源域传输的表示,该源域只能使用少数示例来从源域传送到不同的目标域。我们使用的视觉提示包括对象 - 对象交互,手掌和地区内的动作,这些地区是手工位置的函数。我们采用了一个基于元学习的框架,以提取部署的视觉提示的独特和域不变组件。这使得能够在使用不同的场景和动作配置捕获的公共数据集中传输动作分类模型。我们呈现了我们转让学习方法的比较结果,并报告了阶级阶级和数据间数据间际传输的最先进的行动分类方法。
translated by 谷歌翻译
3D models provide a common ground for different representations of human bodies. In turn, robust 2D estimation has proven to be a powerful tool to obtain 3D fits "in-thewild". However, depending on the level of detail, it can be hard to impossible to acquire labeled data for training 2D estimators on large scale. We propose a hybrid approach to this problem: with an extended version of the recently introduced SMPLify method, we obtain high quality 3D body model fits for multiple human pose datasets. Human annotators solely sort good and bad fits. This procedure leads to an initial dataset, UP-3D, with rich annotations. With a comprehensive set of experiments, we show how this data can be used to train discriminative models that produce results with an unprecedented level of detail: our models predict 31 segments and 91 landmark locations on the body. Using the 91 landmark pose estimator, we present state-ofthe art results for 3D human pose and shape estimation using an order of magnitude less training data and without assumptions about gender or pose in the fitting procedure. We show that UP-3D can be enhanced with these improved fits to grow in quantity and quality, which makes the system deployable on large scale. The data, code and models are available for research purposes.* This work was performed while J. Romero and F. Bogo were with the MPI-IS 2 ; P. V. Gehler with the BCCN 1 and MPI-IS 2 .
translated by 谷歌翻译
We describe the first method to automatically estimate the 3D pose of the human body as well as its 3D shape from a single unconstrained image. We estimate a full 3D mesh and show that 2D joints alone carry a surprising amount of information about body shape. The problem is challenging because of the complexity of the human body, articulation, occlusion, clothing, lighting, and the inherent ambiguity in inferring 3D from 2D. To solve this, we first use a recently published CNN-based method, DeepCut, to predict (bottom-up) the 2D body joint locations. We then fit (top-down) a recently published statistical body shape model, called SMPL, to the 2D joints. We do so by minimizing an objective function that penalizes the error between the projected 3D model joints and detected 2D joints. Because SMPL captures correlations in human shape across the population, we are able to robustly fit it to very little data. We further leverage the 3D model to prevent solutions that cause interpenetration. We evaluate our method, SMPLify, on the Leeds Sports, HumanEva, and Human3.6M datasets, showing superior pose accuracy with respect to the state of the art.
translated by 谷歌翻译
社交机器人是一种自主机器人,通过参与其协作角色附带的社会情感行为,技能,能力和规则,与人们互动。为了实现这些目标,我们认为建模与用户的互动并将机器人行为调整为用户本人对其社会角色至关重要。本文提出了我们首次尝试将用户建模功能集成到社交和情感机器人中。我们提出了一种基于云的体系结构,用于建模用户机器人交互,以便使用不同类型的社交机器人重复使用该方法。
translated by 谷歌翻译
病变分割是放射线工作流程的关键步骤。手动分割需要长时间的执行时间,并且容易发生可变性,从而损害了放射线研究及其鲁棒性的实现。在这项研究中,对非小细胞肺癌患者的计算机断层扫描图像进行了深入学习的自动分割方法。还评估了手动与自动分割在生存放射模型的性能中的使用。方法总共包括899名NSCLC患者(2个专有:A和B,1个公共数据集:C)。肺部病变的自动分割是通过训练先前开发的建筑NNU-NET进行的,包括2D,3D和级联方法。用骰子系数评估自动分割的质量,以手动轮廓为参考。通过从数据集A的手动和自动轮廓中提取放射性的手工制作和深度学习特征来探索自动分割对患者生存的放射素模型对患者生存的性能的影响。评估并比较模型的精度。结果通过平均2D和3D模型的预测以及应用后处理技术来提取最大连接的组件,可以实现具有骰子= 0.78 +(0.12)的自动和手动轮廓之间的最佳一致性。当使用手动或自动轮廓,手工制作或深度特征时,在生存模型的表现中未观察到统计差异。最好的分类器显示出0.65至0.78之间的精度。结论NNU-NET在自动分割肺部病变中的有希望的作用已得到证实,从而大大降低了时必的医生的工作量,而不会损害基于放射线学的生存预测模型的准确性。
translated by 谷歌翻译
公平测试旨在减轻数据驱动的AI系统决策过程中的意外歧视。当AI模型为仅根据受保护属性(例如年龄和种族)区分的两个不同的个体做出不同的决定时,可能会发生个人歧视。这样的实例揭示了偏见的AI行为,被称为个人歧视实例(IDI)。在本文中,我们提出了一种选择初始种子以生成IDI进行公平测试的方法。先前的研究主要使用随机的初始种子来实现这一目标。但是,这个阶段至关重要,因为这些种子是后续IDIS生成的基础。我们称我们提出的种子选择方法I&D。它产生了大量的初始IDI,表现出极大的多样性,旨在提高公平测试的整体性能。我们的实证研究表明,I&D能够就四种最先进的种子生成方法产生更多的IDI,平均产生1.68倍的IDI。此外,我们比较I&D在训练机器学习模型中的使用,并发现与最先进的ART相比,使用I&D将剩余IDI的数量减少了29%,因此表明I&D有效地改善了模型公平性
translated by 谷歌翻译
西尼罗河病毒(WNV)的发生代表了最常见的蚊子传播的人畜共患病毒感染之一。它的循环通常与适合载体增殖和病毒复制的气候和环境条件有关。最重要的是,已经开发了几种统计模型来塑造和预测WNV循环:尤其是,最近的地球观察数据(EO)数据的巨大可用性,再加上人工智能领域的持续发展,提供了宝贵的机会。在本文中,我们试图通过用卫星图像为深度神经网络(DNN)喂食WNV循环,这些图像已被广泛证明可以具有环境和气候特征。值得注意的是,尽管以前的方法可以独立分析每个地理位置,但我们提出了一种空间感知方法,该方法也考虑了近距离位点的特征。具体而言,我们建立在图形神经网络(GNN)的基础上,以从相邻位置进行聚集特征,并进一步扩展这些模块以考虑多个关系,例如两个地点之间的温度和土壤水分差异以及地理距离。此外,我们将与时间相关的信息直接注入模型中,以考虑病毒传播的季节性。我们设计了一个实验环境,将卫星图像(来自Landsat和Sentinel任务)结合在一起,以及意大利WNV循环的地面真相观察。我们表明,与适当的预训练阶段配对时,我们提出的多种jaCencenciencencencence Graph注意网络(MAGAT)始终导致更高的性能。最后,我们在消融研究中评估MAGAT每个组成部分的重要性。
translated by 谷歌翻译
在各种领域,包括搜索和救援,自动驾驶汽车导航和侦察的各个领域,形成不断变化的场景的非线图像(NLOS)图像的能力可能具有变革性。大多数现有的活性NLOS方法使用针对继电器表面并收集回返回光的时间分辨测量的脉冲激光来照亮隐藏场景。流行的方法包括对垂直壁上的矩形网格的栅格扫描,相对于感兴趣的数量,以产生共聚焦测量集合。这些固有地受到激光扫描的需求的限制。避免激光扫描的方法将隐藏场景的运动部件作为一个或两个点目标。在这项工作中,基于更完整的光学响应建模,但仍没有多个照明位置,我们演示了运动中对象的准确重建和背后的固定风景的“地图”。计数,本地化和表征运动中隐藏物体的大小,结合固定隐藏场景的映射的能力,可以大大提高各种应用中的室内情况意识。
translated by 谷歌翻译